社会偏差可以减少Covid-19等呼吸流行病中的感染率。交通交叉路口特别适用于在大都市中监测和评估社会疏散行为。我们提出并评估了一个隐私保留的社会疏散分析系统(B-SDA),它使用鸟瞰观看跨越交通交叉口的行人的录像。我们设计用于视频预处理,对象检测和跟踪的算法,这些算法源于已知的计算机视觉和深度学习技术,而是修改以解决检测由高度升高的相机捕获的非常小的物体/行人的问题。我们提出了一种纳入行人分组以检测社会疏散侵权行为的方法。 B-SDA用于比较基于大都会区域前大流行和大流行视频的行人行为。完成的行人检测性能为63.0美元$ $ $ ap_ {50} $,跟踪性能为47.6美元\%$ mota。大流行期间的社会疏散违规率为15.6 \%$ 31.4 \%$ Pandemic基线,表明行人遵循CDC规定的社会休闲建议。建议的系统适用于现实世界应用中的部署。
translated by 谷歌翻译
Neuro-symbolic AI attempts to integrate neural and symbolic architectures in a manner that addresses strengths and weaknesses of each, in a complementary fashion, in order to support robust strong AI capable of reasoning, learning, and cognitive modeling. In this paper we consider the intensional First Order Logic (IFOL) as a symbolic architecture of modern robots, able to use natural languages to communicate with humans and to reason about their own knowledge with self-reference and abstraction language property. We intend to obtain the grounding of robot's language by experience of how it uses its neuronal architectures and hence by associating this experience with the mining (sense) of non-defined language concepts (particulars/individuals and universals) in PRP (Properties/Relations/propositions) theory of IFOL. We consider three natural language levels: The syntax of particular natural language (Italian, French, etc..), and two universal language properties: its semantic logic structure (based on virtual predicates of FOL and logic connectives), and its corresponding conceptual PRP structure which universally represents the composite mining of FOL formulae grounded on the robot's neuro system.
translated by 谷歌翻译
最近引入的基于变压器的文章编码器(TAES)旨在为相关的科学文章生成类似的矢量表示,已在基准数据集上表现出强烈的性能,以供科学文章建议。但是,现有的基准数据集主要集中在单个域上,在某些情况下,在小型候选池中包含易于负面因素。评估此类基准测试的表示可能会掩盖TAE在候选池中成千上万篇文章的设置中的现实性能。在这项工作中,我们评估了具有更具挑战性候选池的大型基准的TAE。我们将TAE的性能与词汇检索基线模型BM25进行了比较,该模型在引文建议的任务中进行了比较,该模型在给定输入文章中产生了引用的建议列表。我们发现,BM25仍然与最先进的神经检索器具有非常有竞争力的竞争,这一发现令人惊讶,鉴于TAE在小型基准上的强劲表现。作为对现有基准测试的局限性的补救措施,我们提出了一个新的基准数据集来评估科学文章表示:多域引文建议数据集(MDCR),该数据集(MDCR)涵盖了不同的科学领域,并包含具有挑战性的候选池。
translated by 谷歌翻译
数据可视化字幕可帮助读者了解可视化的目的,并且对于视觉障碍的个体至关重要。糟糕的字幕的流行和深度学习方法图像字幕的成功应用激发了使用类似技术来自动图形字幕的使用。但是,由于缺乏合适的数据集,该领域的研究已经阻碍了。我们介绍了LineCap,这是一个3,528个数字的新颖图形字幕,并提供了策划该数据集和使用端到端深度学习模型来自动化图形字幕的见解。
translated by 谷歌翻译
提出了一种使用天气数据实时太阳生成预测的新方法,同时提出了既有空间结构依赖性的依赖。随着时间的推移,观察到的网络被预测到较低维度的表示,在该表示的情况下,在推理阶段使用天气预报时,使用各种天气测量来训练结构化回归模型。从国家太阳辐射数据库获得的德克萨斯州圣安东尼奥地区的288个地点进行了实验。该模型预测具有良好精度的太阳辐照度(夏季R2 0.91,冬季为0.85,全球模型为0.89)。随机森林回归者获得了最佳准确性。进行了多个实验来表征缺失数据的影响和不同的时间范围的影响,这些范围提供了证据表明,新算法不仅在随机的情况下,而且在机制是空间和时间上都丢失的数据是可靠的。
translated by 谷歌翻译
We study a class of dynamical systems modelled as Markov chains that admit an invariant distribution via the corresponding transfer, or Koopman, operator. While data-driven algorithms to reconstruct such operators are well known, their relationship with statistical learning is largely unexplored. We formalize a framework to learn the Koopman operator from finite data trajectories of the dynamical system. We consider the restriction of this operator to a reproducing kernel Hilbert space and introduce a notion of risk, from which different estimators naturally arise. We link the risk with the estimation of the spectral decomposition of the Koopman operator. These observations motivate a reduced-rank operator regression (RRR) estimator. We derive learning bounds for the proposed estimator, holding both in i.i.d. and non i.i.d. settings, the latter in terms of mixing coefficients. Our results suggest RRR might be beneficial over other widely used estimators as confirmed in numerical experiments both for forecasting and mode decomposition.
translated by 谷歌翻译
自我监督学习(SSL)的承诺是利用大量未标记的数据来解决复杂的任务。尽管简单,图像级学习取得了出色的进步,但最新方法显示出包括图像结构知识的优势。但是,通过引入手工制作的图像分割来定义感兴趣的区域或专门的增强策略,这些方法牺牲了使SSL如此强大的简单性和通用性。取而代之的是,我们提出了一个自我监督的学习范式,该学习范式本身会发现这种图像结构。我们的方法,ODIN,夫妻对象发现和表示网络,以发现有意义的图像分割,而无需任何监督。由此产生的学习范式更简单,更易碎,更一般,并且取得了最先进的转移学习结果,以进行对象检测和实例对可可的细分,以及对Pascal和CityScapes的语义细分,同时超过监督的预先培训,用于戴维斯的视频细分。
translated by 谷歌翻译
General perception systems such as Perceivers can process arbitrary modalities in any combination and are able to handle up to a few hundred thousand inputs. They achieve this generality by using exclusively global attention operations. This however hinders them from scaling up to the inputs sizes required to process raw high-resolution images or video. In this paper, we show that some degree of locality can be introduced back into these models, greatly improving their efficiency while preserving their generality. To scale them further, we introduce a self-supervised approach that enables learning dense low-dimensional positional embeddings for very large signals. We call the resulting model a Hierarchical Perceiver (HiP). In sum our contributions are: 1) scaling Perceiver-type models to raw high-resolution images and audio+video, 2) showing the feasibility of learning 1M+ positional embeddings from scratch using masked auto-encoding, 3) demonstrating competitive performance on raw data from ImageNet, AudioSet, PASCAL VOC, ModelNet40 and Kinetics datasets with the same exact, unchanged model and without specialized preprocessing or any tokenization.
translated by 谷歌翻译
在联合学习(FL)的跨设备中,通过使用更新而不是潜在的私人数据来交换参数,具有低计算功率的客户培训常见的\ Line Break [4]机器模型。联合辍学(FD)是一种通过选择要在每个训练回合中更新的模型参数的\ emph {subset}来提高FL会话的通信效率的技术。但是,与标准FL相比,FD产生的精度较低,并且面对更长的收敛时间。在本文中,我们利用\ textit {编码理论}来增强FD,通过允许在每个客户端使用不同的子模型。我们还表明,通过仔细调整服务器学习率超级参数,我们可以达到更高的训练速度,同时也达到与无辍学案例相同的最终精度。对于EMNIST数据集,我们的机制达到了NO辍学案例最终准确性的99.6%,同时需要$ 2.43 \ tims $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $ $。
translated by 谷歌翻译
最近的反向散射通信技术使超低功耗无线设备使得在没有电池的情况下操作,同时直接与未修饰的商品无线设备互操作。商品设备在提供未调制的载体时,可以在从其环境中收集能量以执行感测,计算和通信任务的同时需要进行通信的未调制载波。未经调制载波的最佳提供限制了网络的大小,因为它是NP硬组合优化问题。因此,以前的作品要么完全忽略载体优化,要么避免次优启发式,浪费宝贵的能量和光谱资源。我们展示了Deepgantt,这是一种与无线商品互通设备的无电池设备的深度学习调度程序。 Deepgantt利用图形神经网络来克服这个问题固有的变量输入和输出大小挑战。我们培养我们的深度学习调度程序,具有从约束优化求解器获得的相对较小的尺寸的最佳时间表。 Deepgantt不仅优于精心制作的启发式解决方案,而且还在训练有素的问题大小的最佳调度器的3%内执行。最后,DeepGantt推广了超过用于训练的最大值的问题超过四倍,因此打破了最佳调度器的可扩展性限制,并为更有效的反向散射网络铺平道路。
translated by 谷歌翻译